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У статті визначений алгоритм та деталізовано послідовні завдання для побудови ефективної моделі ав- 
томатизованої класифікації подій в інформаційному просторі. Напередодні та в ході збройної агресії Російсь- 
кої Федерації проти України відчутно проявилися наслідки зовнішнього негативного інформаційного впливу. 
Тому невідкладними є організація та здійснення протидії такому впливу. Важливою складовою цієї діяльності 
є класифікація (кластеризація) подій в інформаційному просторі з метою їх подальшого аналізу та формування 
пропозицій для прийняття рішень на протидію негативному інформаційному впливу. Враховуючи те, що в гло- 
бальному інформаційному просторі та, зокрема, в інформаційному просторі держави, в інтересах протидії тако- 
му впливу необхідно постійно обробляти значний обсяг інформації, тому вирішення завдання підвищення опе- 
ративності цього процесу передбачається за рахунок автоматизації його складових. В основу алгоритму проце- 
су автоматизованої класифікації покладено низку виконання послідовних завдань, а саме: пошук даних, попе- 
редній відбір повідомлень ("груба" класифікація), збереження попередньо відібраних повідомлень у базі да- 
них, визначення сукупності показників для автоматизованої класифікації інформаційних подій, попередня об- 
робка окремого документу (індексація), розподіл повідомлень за критеріями по категоріях ( "точна" класифіка- 
ція), подання інформації у зручному для сприйняття вигляді (візуалізація), збереження результатів класифіка- 
ції у базі даних. У запропонованому матеріалі розкритий зміст виконання цих завдань. Запропонований алго- 
ритм слугуватиме автоматичному розподілу інформаційних подій (повідомлень) різної природи на категорії 
(класи) з метою підвищення оперативності оцінювання рівня негативного інформаційного впливу на цільові 
аудиторії для своєчасного (проактивного) реагування на його прояви. 
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Вступ 

Зважаючи на значний обсяг інфор- 
мації, яка потрапляє в інформаційний 
простір і потребує обробки в сучасних 
умовах та обмежений час на прийняття рі- 
шення, підвищення оперативності вирі- 
шення завдання, виявлення та оцінювання 
негативного інформаційного впливу на 
особовий склад Збройних Сил України, 
як необхідної умови високої результатив- 
ності випереджувальних заходів протидії 
такому впливу, вбачається в реалізації ав- 
томатизації процедур виявлення та класи- 
фікації проявів такого впливу. Ключовим 
та теоретично складним для виконання 
цього завдання має бути процес класифі- 
кації (категоризації) інформаційних подій 
в інформаційному просторі з метою по- 
дальшого аналізу, оцінювання за методи- 
кою кількісного виміру та прийняття рі- 
шення щодо вживання відповідних захо- 
дів з протидії. 

Аналіз літературних даних та по- 
становка проблеми 

Питання протидії негативному ін- 
формаційному впливу на різні цільові ау- 
диторії, зокрема на особовий склад Зброй- 
них Сил України, розглядалося в працях 
вітчизняних науковців: В. Толубка, 
І. Руснака, В. Телелима, А. Рося, Т. Дзюби, 
Г. Пєвцова та інших (1-4. Аналіз показує, 
що на сьогодні теорія протидії такому 
впливу обмежена на рівні концептуально 
декларативних положень, а тому для прак- 
тики є недосконалою. У ній бракує чітких 
формальних методів і алгоритмів складо- 
вих цього процесу, зокрема процесу класи- 
фікації інформаційних подій. 

Існуючий стан системи протидії не- 
гативному інформаційному впливу на осо- 
бовий склад Збройних Сил України є роз- 
балансованим, процеси не автоматизовані. 
Оцінювання негативного інформаційного 
впливу на особовий склад Збройних Сил 
України та реагування на нього прово- 
диться не інтегрально, а за окремими ін- 
формаційними проявами, причому на якіс- 
ному рівні (без кількісних оцінок), що 
унеможливлює прогнозування ситуації та 
випереджувальні системні дії. Інтегральне 


О В.В. Грицюк 


оцінювання негативного інформаційного 
впливу на особовий склад Збройних Сил 
України здійснюється за його наслідками, 
через якісну оцінку рівня морально-психо- 
логічного стану особового складу Зброй- 
них Сил України на основі результатів мо- 
ніторингу у військових частинах і підроз- 
ділах, відповідно діючих інструкцій (51, 
тобто вже після наслідків інформаційних 
впливів. Зазначене не дозволяє проводити 
випереджувальні заходи для підтримки 
морально-психологічного стану військ 
(сил), отже ефективно протидіяти такому 
впливу. 

У цьому випадку більш доцільним 
було б оцінювання рівня впливу та визна- 
чення його значимості із використанням 
кількісної міри. Це дасть можливість ус- 
пішно використати методику, описану у 
працях (б, 7), та реалізувати у повному об- 
сязі наведену |І8| кібернетичну модель 
протидії "на випередження". Ключовим 
елементом методики є статистична оброб- 
ка інформаційних подій та, відповідно, їх 
лінгвістична селекція за ознаками класи- 
фікаційної таблиці, а також "вагове" ін- 
тегрування, що визначає основну трудо- 
місткість процесу оцінювання, від чого за- 
лежить оперативність реалізації зазначе- 
ного процесу. 

Метою дослідження є розробка ал- 
горитму процесу автоматизованої класи- 
фікації подій в інформаційному просторі 
для виконання функції розподілу інформа- 
ційних подій (повідомлень) різної приро- 
ди на категорії (класи). Цей алгоритм ав- 
томатизації слугуватиме підвищенню опе- 
ративності загального процесу протидії 
негативному інформаційному впливу. 

Виклад основного матеріалу 

Визначимо ключовий термін 
дослідження. 

Класифікація документів - це одне 
із завдань інформаційного пошуку, яке по- 
лягає у зарахуванні документа до однієї з 
кількох категорій на підставі його змісту 
19). Зазвичай, під класифікацією докумен- 
тів мається на увазі класифікація тексту, 
якщо не вказано інше. 
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На сьогодні процес класифікації ін- 
формаційних подій, зокрема в текстовому 
виді, можна реалізувати ручним, напівав- 
томатичним (автоматизованим) та автома- 
тичним методом. При цьому розуміється, 
що в нашому випадку, коли вирішується 
питання оперативності реагування, роз- 
гляд ручного методу є недоцільним, а 
автоматичний метод у ряді випадків слу- 
гує для виконання складових напівавтома- 
тичного методу, коли останній забезпечує 
реалізацію певного комплексного 
процесу. 

Відповідно до (10), під автоматич- 
ною класифікацією розуміється віднесен- 
ня автоматичним пристроєм об'єктів з де- 
якої множини до того або іншого класу із 
заданого (скінченного) набору класів. 

В П1) поняття «класифікація авто- 
матична» еквівалентне поняттям «розпіз- 
навання образів», «самонавчання розпіз- 
наванню образів», «навчання без учителя» 
та визначається як процес автоматичного 
розбиття множини спостережуваних пові- 
домлень (документів) на підмножини за 
вибіркою повідомлень (документів), на- 
лежність яких до шуканих підмножин не 
вказана. Розбиття здійснюється на підставі 
того, як групуються повідомлення (доку- 
менти) з вибірки по їх взаємній подібності 
або на підставі будь-яких неповних даних 
про шукані підмножини. 

Ще досить давно В.С. Файн в тема- 
тичній статті «Енциклопедія кібернетики» 
ПО) зазначив, що в основу автоматичної 
класифікації покладено аналіз інформації 
про кожний об'єкт, яка вводиться в прис- 
трій. У такому випадку, інформацію про 
об'єкт, що класифікується, слід інтерпре- 
тувати як сукупність ознак. Тоді кожній 
ознаці зіставляється координата (багато 
градаційна або двійкова, залежно від при- 
роди ознаки) в деякому просторі ознак, де 
будь-який пред'явлений об'єкт буде від- 
повідати певній точці простору. При вда- 
лому виборі ознак точки одного класу бу- 
дуть групуватися в компактні скупчення з 
межами, що порівняно легко апроксиму- 
ються, або в постановці ймовірності роз- 
поділами ймовірності. Поданий об'єкт, за- 
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лежно від того, куди потрапляє в просторі 
ознак точка, що його відображає, буде ав- 
томатично класифікуватися, відповідно до 
прийнятого вирішального правила. 

Повністю автоматичний метод кла- 
сифікації передбачає набір правил або, 
більш загально, критеріїв прийняття рі- 
шення класифікатора, які обчислюються 
автоматично з навчальних даних (іншими 
словами, проводиться навчання машини - 
класифікатора). Даний підхід має нечітку 
кількість класів (тобто кількість класів і 
підкласів може змінюватись (бути гнуч- 
кою) в процесі роботи) за допомогою "ма- 
шинного навчання" (Масріпе Іеагпіпе). 
Але створювана множина класів може не 
відповідати за якістю запитам та вимогам 
до системи, що знижує якість обробки да- 
них (інформації). 

У нашому випадку виявлення та кла- 
сифікації інформаційних подій, переважно 
у формі текстів, машині-класифікатору 
визначати типи та кількість класів не по- 
трібно, оскільки прийнято, що вони апріо- 
рі визначені й відомі (за загальною методи- 
кою). Тому при цьому сутність процесу 
автоматизації не передбачає попереднього 
«машинного навчання», а полягає в реалі- 
зації алгоритму на основі попередньо на- 
писаних правил, відповідно до яких ін- 
формаційна подія (текст) відноситься до 
певного класу. 

Таке рішення дозволяє забезпечити 
як автоматизацію процесу, так 1 підвищи- 
ти точність класифікації, у порівнянні З 
«машинним навчанням». 

Саме проблематиці розробки такого 
автоматизованого методу присвячена стат- 
тя. Для цього необхідно визначити алго- 
ритм процесу автоматизованої класифіка- 
ції подій в інформаційному просторі. Алго- 
ритм призначений для автоматизованого 
розподілу інформаційних подій (повідом- 
лень) різної природи на категорії (класи) з 
метою підвищення оперативності реагу- 
вання на негативний інформаційний вплив 
на особовий склад Збройних Сил України. 
Алгоритм складено з ряду послідовних зав- 
дань, як представлено на рис. І. 
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визначення сукупності показників для автоматизованої класифікації інформаційних подій 


Інформаційний простір 
ана зо, 
« « « « « . -ж»--» 
попередній відбір повідомлень ("груба" класифікація) та 
коси 


збереження попередньо відібраних повідомлень у базі даних 


попередня обробка окремого документу (індексація) 


розподіл повідомлень за критеріями по категоріях ("точна" класифікація) 


збереження результатів "точної" класифікації у базі даних 


подання інформації у зручному для сприйняття вигляді (візуалізація) 


Рис. 1. Алгоритм процесу автоматизованої класифікації подій в інформаційному просторі 


Опишемо кожне із завдань, посила- 
ючись на відомі підходи у тому випадку, 
коли вони доцільні для реалізації схеми на 
рис. 1. 

Пошук даних 

Це інформаційний пошук неструкту- 
рованих документальних даних, зокрема, 
даних в документах, пошук самих доку- 
ментів, здобуття метаданих з документів, 
пошук тексту, зображень, відео та звуку у 
локальних реляційних базах даних, у гіпер- 
текстових базах даних, зокрема, таких як 
Інтернет та локальний інтранет. 

Автоматизовані системи інформацій- 
ного пошуку використовують для змен- 
шення так званого «Інформаційного пере- 
вантаження». Найвідомішим прикладом 
можна назвати пошукові системи в 
Інтернеті. 

Об'єктом інформаційного пошуку є 
текстова інформація, зображення, аудіо- 
та відеоінформація. 

Завданням інформаційного пошуку є 
знаходження, відповідних потребі, інфор- 
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маційних об'єктів або документів серед 

доступного для пошуку матеріалу. Завдан- 

ня для інформаційного пошуку задається 

у вигляді пошукового запиту (ПЗ), який 

може містити слова, фрази чи речення або 

їх комбінацію. Переважна більшість по- 

шукових систем орієнтована на роботу з 

пошуковими термінами (термами) -- сло- 

вами або словосполученнями, які пошуко- 

ва система розпізнає як одне ціле | 121. 

Попередній відбір повідомлень 
(«груба класифікація») 

Загалом, результати інформаційного 
пошуку повинні відповідати | таким 
вимогам | 121: 

- релевантність - стосується результатів 
роботи пошукової системи й експертної 
системи; ступінь відповідності запиту й 
знайденого, тобто доречність результа- 
ту. Одне з найбільш близьких поняттю 
«релевантності» - «адекватність», тоб- 
то оцінка ступеня відповідності прак- 
тичної та соціальної застосовності ре- 
зультату варіантів вирішення завдання; 
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- пертинентність - співвідношення обся- 
гу корисної інформації до загального 
обсягу отриманої інформації. 

Завдання «попереднього відбору по- 
відомлень» являє собою, по суті, 1-й «гру- 
бий» етап відбору («грубе сито»). Тобто, 
розглядається певна ситуація, коли відби- 
раються необхідні повідомлення про ін- 
формаційні події із всієї множини інформа- 
ційного простору. Іншими словами, цей 
процес можна вважати «грубим ситом» по- 
дій в інформаційному просторі або «гру- 
бою класифікацією» інформаційних подій. 
Процес виконується за ключовими слова- 
ми, що відносяться до певної окремої кате- 
горії. У такому випадку, класифікацію 
можна також назвати категоризацією. 

Для здійснення попереднього інфор- 
маційного пошуку потрібно мати доступ 
до збірки (обсягу) інформаційних об'єктів 
(бібліотеки, бази даних тощо) і автомати- 
зовану систему (сервіс або програму), яка 
здійснює пошук. При цьому попередній 
відбір повідомлень передбачає включення 
до масиву усіх повідомлень, які за ознака- 
ми можна віднести до єдиного класу (ка- 
тегорії), яка, у нашому випадку, характе- 
ризує ці повідомлення як такі, що негатив- 
но впливають на особовий склад Зброй- 
них Сил України, тобто пошуковий запит 
має узагальнювати ознаки одразу усіх кла- 
сів інформаційних повідомлень (відповід- 
но до методики (б, 7)). Отже має бути ви- 
значено певний мета-тег для використан- 
ня в ПЗ. Пошукова система переглядає всі 
доступні інформаційні одиниці (докумен- 
ти) зі збірки й відбирає відповідні до мета- 
тегу ПЗ. Результатом пошукової роботи є 
упорядкований список документів, який 
укладається, згідно з певним принципом. 
Таким чином, процес попереднього інфор- 
маційного пошуку - це алгоритм, який, 
переглядаючи доступну збірку інформа- 
ційних об'єктів за певний проміжок часу, 
формує попередній набір документів: спи- 
сок р - (4) і - 1,1, відповідно до П3. 

Для процедури формування ПЗ не- 
обхідно здійснити формалізацію основних 
понять, сукупно для усіх класів інформа- 
ційних повідомлень, та створити мета-тег 
загального значення. 


46 


155 1561-5359. Штучний інтелект, 2020, ХМ» 2 


З цього приводу слід зазначити, що 
характеристикою певного веб-ресурсу яв- 
ляються дві основоположні складові, це: 
метадані та внутрішнє смислове наванта- 
ження, тобто власне основний текст доку- 
мента. Ці складові використовуються в 
тому числі для того, щоб допомогти по- 
шуковим машинам віднести веб-сторінку 
(інформацію) до тієї чи іншої тематичної 
сукупності. Тобто пошукові системи по- 
рівнюють (ототожнюють) ПЗ, який може 
бути представлений мета-тегом або тега- 
ми (сукупністю ключових слів) з метада- 
ними та власне текстом вебресурсу (доку- 
менту). Тому спочатку необхідно визначи- 
ти теги для кожного з класів. Сукупність 
всіх цих тегів про кожен клас об'єднуєть- 
ся у загальний мета-тег, який 1 буде харак- 
теризувати усю сукупність класів. Відпо- 
відно, на першому етапі класифікації ін- 
формаційних подій, який ще, іншим чи- 
ном, можна назвати "грубим ситом", цей 
мета-тег буде використаний для форму- 
вання ПЗ та подальшого встановлення ре- 
левантності з метаданими та текстом веб- 
ресурсів. Згідно із цим правилом, форму- 
ється множина документів 0 - (;) для 
подальшої класифікації (категоріювання). 

Збереження попередньо відібраних 
повідомлень у базі даних 

Після відбору повідомлень (доку- 
ментів) необхідно зберегти їх у базі даних 
у початковому оригінальному вигляді, 30- 
крема для подальшої перевірки (аналізу), 
для здійснення класифікації повідомлень. 
Дей етап є резервуванням отриманих да- 
них, у відповідності до ПЗ. 

Визначення сукупності показників 
для автоматизованої класифікації ін- 
формаційних подій 

Процес класифікації повідомлень 
масиву Р - (4) за відомими класами мо- 
же проводитись за, так званими, "частко- 
вими класифікаторами". Такий класифіка- 
тор є переліком категорій аналізу, індика- 
торів (прийнятих одиниць реєстрації), ос- 
новою алгоритму наступних дій. Від його 
вибору залежить якість процесу автомати- 
зованої класифікації. 
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Категорії аналізу - ключові елемен- 
ти дослідницької концепції, значеннєві 
одиниці, які реєструють, відповідно до по- 
ставленої мети. Список категорій повинен 
бути вичерпним, забезпечувати можли- 
вість однозначного співвіднесення частин 
тексту з конкретною категорією (класом). 
У нашому випадку список категорій є ві- 
домим, відповідно до розділу І, цей спи- 
сок включає 22 категорії або класи (за 
іншими методиками це число може бути 
іншим). 

Індикатори - ознаки вираження пев- 
ної сутності тексту, які є його частинами, 
що характеризують належність повідом- 
лення (тексту) до окремої категорії (зна- 
ченнєвої одиниці). Ними можуть бути 
символи, слова, терміни, словосполучен- 
ня, ситуації, судження, репліки, інтонації, 
які дають змогу визначити роль у тексті 
кожної категорії. Вона може виражатися у 


Витягнення термів 


Лексичний аналіз 


Видалення стоп-слів 
Лематизація 1 стемінг 


Об'єднання в групи 


Документ 


« Зважування" 


тексті по-різному: від окремих символів 
чи слів до суджень або абзаців. 

Попередня обробка окремого доку- 
мента (індексація) 

Для вирішення задачі автоматичної 
класифікації текстів, в першу чергу необ- 
хідно виконати попередню обробку доку- 
ментів з множини Р - (4), і - 1,п інфор- 
маційних об'єктів, яку називають індекса- 
цією. На цьому етапі документи, що ма- 
ють вигляд послідовності символів, пере- 
творюються до виду, придатного для ма- 
шинних алгоритмів, у відповідності до за- 
дачі класифікації. Зазвичай, за допомогою 
алгоритмів реалізації цієї функції, опра- 
цьовуються вектори в так званому прос- 
торі ознак |13). 

Індексацію можна представити у 
вигляді трьох етапів, як зображено на 
рис. 2 (14). 


Логічне 
представлення 


Зменшення документа І; 


термів розмірності 


Рис. 2. Попередня обробка (індексація) документа 


На виході усієї процедури індексації 
отримується логічне (формальне) пред- 
ставлення документа для подальшої об- 
робки. Розглянемо елементи процедури 
індексації. 

Витягнення термів 

Витягнення термів, або витягнення 
ознак - це процес розбиття тексту на прос- 
тіші об'єкти, які також називаються тер- 
мами. Результат цього процесу - це мно- 
жина термів Ті), які використовуються для 
отримання вагових характеристик доку- 
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мента. Процес передбачає ряд процедур, 
що наводяться. 

Лексичний аналіз. Лексичний аналіз 
- перший крок вилучення термів. На цьо- 
му етапі відсіюються всі символи, які не є 
буквами (наприклад, розділові знаки й 
Билі-теги). 

Видалення стоп-слів. Стоп-слова -- 
це слова, що не несуть будь-якого самос- 
тійного смислового навантаження. До 
стоп-слів належать прийменники, сполуч- 
ники й займенники | 15). З метою зменшен- 
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ня розмірності простору термів, індекса- 
тор не враховує стоп-слів 1 видаляє їх при 
аналізі. Так само стоп-слова сильно впли- 
вають на відбір ключових слів. Якщо їх не 
видалити, вони засмічують безліч термів, 
так як зустрічаються часто в тексті. 

Додатково варто відзначити, що бу- 
вають ситуації, коли є сенс відмовитися 
від видалення стоп-слів, У статті |16| по- 
казано, що від тематики до тематики силь- 
но змінюються фразові дієслова й точність 
класифікації, з урахуванням  стоп-слів, 
може зрости. 

Лематизація й стемінг. Лематизація 
- це приведення кожного слова в докумен- 
ті до його нормальної форми. Зокрема, в 
українській мові нормальними формами 
вважаються: 

е для іменників й прикметників -- назив- 
ний відмінок, однина, чоловічий рід; 

е для дієслів, дієприкметників й дієприс- 
лівників - дієслово в невизначеній 
формі. 

При побудові безлічі термів часто 
нехтують формами слова. Це виправдано, 
так як, зберігаючи форми слів, простір 
термів 1 структура зберігання будуть 
швидко рости, що погіршить продуктив- 
ність, а статистика буде ділитися між фор- 
мами одного слова, погіршуючи загальну 
картину. 

Стемінг - відкидання змінюваних 
частин слів, головним чином закінчень. 
Ця технологія простіша, не вимагає збері- 
гання словника слів або великого набору 
правил. Технологія заснована на правилах 
морфології мови. Недолік стемінгу - вели- 
ке число помилок. Стемінг добре підхо- 
дить, наприклад, для англійської мови, але 
гірше - для української. 

Одна з проблем при розгляді слів в 
якості термів - це їх семантична неодноз- 
начність, яку умовно можна поділити на 
дві групи: 

1. Синоніми - слова однієї частини мови, 
різні за звучанням і описом, але мають 
схоже лексичне значення (йти -- кроку- 
вати, сміливий - хоробрий); 


48 


155 1561-5359. Штучний інтелект, 2020, Ж» 2 


2. Омоніми - різні за значенням, але одна- 
кові за написанням одиниці мови (міна 
- вираз обличчя або вибуховий снаряд). 

Вирішити цю невизначеність можна, 
використовуючи контекст слова в реченні. 
Для цього використовуються методи мор- 
фологічного й лінгвістичного аналізу (171. 

Об'єднання | в з групи | (М-грами). 
Об'єднання в групи - це процес об'єднан- 
ня декількох послідовних слів в одну гру- 
пу, яку називають М-грамою. У такому ви- 
падку, кожна М-грама розглядається як са- 
мостійний терм 6; Є Т; документа. 

Якщо розділити текст на кілька не- 
великих фрагментів, представлених М- 
грамами, їх легко порівняти одна з одною 
і, таким чином, отримати ступінь подіб- 
ності контрольованих документів, що, 30- 
крема, часто застосовується у виявленні 
плагіату. Використовуючи М-грами, також 
можна ефективно знайти кандидатів для 
заміни слів з помилками правопису. Ос- 
новний недолік застосування М-грам, це 
швидко зростаючий обсяг пам'яті, необ- 
хідний для їх зберігання. 

Текстова | інформація документа 
фер подається як ммножина  термів 
Т; ні Ге, НАР ви Кожному терму Її є ТЕ 
) з І,ті, ставиться у відповідність деяка 
"вага" м/;;. Ця функція є числовою харак- 
теристикою розповсюдженості цього сло- 
ва в документі ає ). При цьому врахову- 
ється не тільки частота повторюваності 
слова в тексті, а також інші ознаки, такі 
як: порядок слів, повторюваність у заго- 
ловку, слово, що міститься в метаданих 
джерела інформації та інші. На підставі 
цих ознак, кожному терму в тексті відпо- 
відає його "вага". 

Попередня обробка документа, в та- 
кому випадку, це перетворення послідов- 
ності термів документа в пл-вимірний век- 
торний простір. Процес отримання векто- 
ра "ваг? для документа називається індек- 
сацією документа. 

Зважування термів з використан- 
ням статистичної обробки 

Один з відомих методів представити 
"вагу" терму - метод ТЕ-ІОБ. 
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ТЕ (кегта Їгедиепсу - частота терму) - 
відношення числа входження деякого тер- 
му до загальної кількості термів докумен- 
та. Так оцінюється домінування окремого 
терму в межах документа | 181. 

Нехай о) - чИСЛО вХОоджень терму 
їз в документ а; є. 

Тоді частота терму ії; визначається 
тЕЇьі) с і. зі еїлорзе ЇЇ) 

узі Їй 

ПОВЕ (іпуегзе доситепі гедиепсу - 
зворотна частота документа) - інверсія 
частоти, з якою деякий терм зустрічається 
в усіх документах множини Р - (4;). 
Врахування ПУЕ зменшує "вагу" широко- 
вживаних термів. Для кожного унікально- 
го терму в межах конкретної множини 
документів існує тільки одне значення 
ІДЕ (18). 

п 


ШЕ(сі) З ул (авенеад)" 


4,Є0, (0) 


де п - кількість документів у множині 
р «(45 

21 р у; Є 4) 2 1 - кількість до- 
кументів, в яких зустрічається терм 1; 

ТЕ-ІРЕ - статистична міра, яка вико- 
ристовується для оцінки важливості терму 
в контексті документа, що є частиною 
множини Р. Відповідно до | 13, 18|, "вага" 
деякого терму пропорційна кількості вжи- 
вання цього слова в документі а;є)) 1 
обернено пропорційна частоті вживання 
слова в інших документах множини Ї: 


Улі з ТЕ сі) Х ШЕ(бзг), | ша І; (3) 


У результаті процесу "зважування 
термів" отримується вагова характеристи- 
ка кожного документа а;є ), як кортеж 
"ваг" термів. 


У; а (мін Мт різ Іл (4) 


Реалізація алгоритмів ТЕ, ТЕ-ІОЕ 
вже існує в бібліотеках для роботи з текс- 
тами та виконується на мові програмуван- 
ня руфроп. Для прискорення роботи з вели- 
кими матрицями термів використовується 
бібліотека питру 1141. 

Зменшення розмірності векторів 

Для скорочення розмірності векторів 
можна не враховувати рідкісні слова, які 
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збільшують розмір простору, але, як пра- 
вило, не несуть корисної для класифікато- 
ра інформації. Також можна не розглядати 
слова, що часто зустрічаються, такі як ар- 
тиклі тощо. Для кожного терму можна ви- 
значити його коефіцієнт значущості, тобто 
наскільки цей терм корисний для класифі- 
кації. Цю характеристику можна визначи- 
ти, грунтуючись на кореляції між часто- 
тою появи слова в документі й приналеж- 
ністю цього документа до однієї або де- 
кількох категорій. 

Крім видалення зайвих термів, мож- 
на групувати кілька термів в один. На- 
приклад, можна групувати разом синоні- 
ми. Ще один підхід - "спільна зустрічаль- 
ність" (сооссштепсе): об'єднувати слова, 
які часто зустрічаються в одному оточен- 
ні. Наприклад, в словосполученнях «керів- 
ник компанії», «директор компанії» слова 
«керівник» та «директор» зустрічаються 
перед словом «компанія». Тому їх можна 
об'єднати в один штучний терм. У загаль- 
ному випадку, для слів визначається якась 
метрика близькості, й групи близьких слів 
склеюються в один терм. Вага такого тер- 
му в кожному конкретному документі роз- 
раховується з ваг представників групи, які 
зустрічаються в цьому документі. 

Таким чином, логічне представлення 
документа й; Є ОЙ в такому випадку отри- 
мується виокремленням всіх значущих 
термів і визначенням їхньої "ваги". Після 
процесу функції "зменшення розмірності" 
в кожному документі ад; отримуємо 
кількість термів / 2 1,К. При цьому 
розуміється 

кК«т, 
де К - кількість термів до моменту "змен- 
шення розмірності векторів"; т - кількість 
термів після зазначеної функції. 

У підсумку, кожен документ по- 
винен бути представлений вектором К- 


вимірної розмірності а; с (М/ті) мч, Микаі)» де 
кожен компонент м/;; є вагою /-го терму з 


множини термів 7 в документі а;. Отрима- 
ний в результаті п-вимірний простір век- 
торів прийнято називати простором ознак 
для документів множини Р. Кожен індек- 
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сований документ а; Є ) в результаті 
обробки подається в вигляді логічного 
представлення | 151. 
Ії а Цмиліь но Мкаірі з 1. 0 (5) 
У подальшому, логічне представлен- 
ня документа Ї; буде тією ознакою доку- 
мента, за якою буде проводитись автома- 
тична класифікація документа, тобто від- 
несення до тієї чи іншої категорії. Логічне 
представлення документа є, по суті, набо- 
ром "ваг" термів. Ці "ваги" будуть ранжи- 
ровані. І найбільш пріоритетні з них по- 
рівнюються (ототожнюються) з тегами на- 
перед відомих категорій (класів) за спеці- 
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альними правилами. Найбільш релевантні 
співпадіння "ваг" термів з тегами катего- 
рій будуть підставою для віднесення до 
тієї чи іншої категорії. 

Розподіл повідомлень за критерія- 
ми по категоріях ("точна"? класифікація) 

Після здійснення індексації наступ- 
ним Йде етап (функція) класифікації 
(категоризації). 

Схематично процес класифікації (ка- 
тегоризації) інформаційних подій зобра- 
жено на рис. 3. 


Мега-тег 


категорія С, категорія С». 


Масив О з (4) 


категорія Сз 


категорія Сза 


Й 


категорія С22 | 


підкатегорія 5Са підкатегорія 8Св 


підкатегорія 8Со 


підкатегорія 5 С," 


підкатегорія 8Св-, 


Рис. 3. Ієрархічне представлення процесу класифікації (категоризації) 


Критерій категорії - сформульована 
умова включення того чи іншого доку- 
мента в окрему категорію (клас). Критерій 
встановлює співвідношення (семантичний 
зв'язок) між темою категорії й докумен- 
том, що включається в неї. При цьому еле- 
мент, що включається, Є граматичним 
суб'єктом висловлювання про відношення, 
а тема категорії - складовою частиною 
предиката висловлювання про відношення. 

Критерії категоризації документів. 
У категорію включаються документи або 
підкатегорії, відповідні встановленим кри- 
теріям цієї категорії. Основні вимоги до 
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критерію будь-якої категорії для документа 
- істотність ознак категоризації, його уні- 
кальність, відповідність базовим правилам 
(перевіряємість, нейтральна точка зору 
тощо). 

Істотність ознаки означає наяв- 
ність зафіксованого в авторитетних дже- 
релах способу класифікації об'єктів, що 
підпадають під класифікацію (категориза- 
цію). Цей спосіб повинен бути відповід- 
ним до критерію категорії. Під унікальніс- 
тю розуміється неприпустимість створен- 
ня множинних категорій з ідентичними 
або дуже близькими критеріями включен- 
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ня. Верифікованість означає можливість 
перевірити виконання критерію категорії 
для кожної зі статей на підставі авторитет- 
них джерел. Нейтральна точка зору вима- 
гає дотримання нейтральності в формулю- 
ванні критерію. 

Подання інформації в зручному 
для сприйняття вигляді (візуалізація) 

На практиці результати аналізу кон- 
тенту найчастіше представляються рядами 
діаграм: стовпчастих чи кругових. Також, 
для відображення відносин між одиниця- 
ми аналізу контенту та результатів їх кате- 
горизації використовуються такі стандарт- 
ні засоби відображення структур, як різні 
графи. Візуалізація відбувається за допо- 
могою деяких комп'ютерних програм. На- 
приклад, Місго8ой Ехсе! та 5Р55. Презен- 
тувати дані допомагають програми на 
кшталт Місгобой РомегРотпі та Ргелі. 

Збереження результатів класифі- 
кації у базі даних 

Всі розрахунки та візуалізовані ре- 
зультати класифікації (категоризації) збері- 
гаються у базах даних або на матеріальних 
носіях інформації. Ці дані будуть далі вра- 
ховані за допомогою методики виявлення 
та оцінювання негативного інформаційно- 
психологічного впливу на особовий склад 
Збройних Сил України, яка описана в пер- 
шому розділі. Після повного комплексу за- 
значених процедур інформація буде нада- 
ватися особам, що приймають рішення, на 
подальшу протидію такому впливу. 

Висновки 

В основу автоматичної класифікації 
доцільно покласти аналіз інформації про 
кожний об'єкт, яким є зафіксоване пові- 
домлення в інформаційному просторі. В 
такому випадку, інформацію про об'єкт, 
що класифікується, слід інтерпретувати як 
сукупність ознак. Пред'явлений об'єкт 
класифікувати відповідно до прийнятого 
вирішального правила. 

Запропонований | автоматизований 
підхід полягає в написанні правил, згідно 
яких автоматичним методом можна зара- 
хувати текст до тієї чи іншої категорії. 

Розроблений алгоритм слугуватиме 
автоматичному розподілу інформаційних 
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подій (повідомлень) різної природи на ка- 
тегорії (класи) з метою підвищення опера- 
тивності оцінювання рівня негативного ін- 
формаційного впливу на особовий склад 
Збройних Сил України для своєчасного 
(проактивного) реагування | на | його 
прояви. 
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